Навигация по сайту
На Главную 1 семестр 2 семестр 3 семестр Здесь будут другие семестры Обо мне Официальный сайт ФББ МГУ
№ Задания | Формулировка | Команда | Исходные файлы | Конечные Файлы |
1 | Несколько файлов в формате fasta собрать в единый файл. | seqret "*.fasta" al.fasta | kamp_a.fasta HSP71_YEAST.fasta | al.fasta |
2 | дин файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы. | seqretsplit al.fasta | al.fasta | emboss_001.fasta hsp71_yeast.fasta |
4 | Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл. | transeq -table 1 -frame 1 random.fasta trans_r.fasta | random.fasta | trans_r.fasta |
6 | Перевести выравнивание из формата fasta в формат msf. | seqret random.fasta msf::random.msf | random.fasta | random.msf |
8 | (featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff. | featcopy sequence.gb sequence.gff | sequence.gb | sequence.gff |
9 | (extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями. | extractfeat sequence.gb ex.fasta | sequence.gb | ex.fasta |
10 | Перемешать буквы в данной нуклеотидной последовательности | shuffleseq random.fasta random_shuffled.fasta | random.fasta | random_shuffled.fasta |
11 | Создать три случайных нуклеотидных последовательностей длины 100 | makenucseq -length 100 -amount 3 -outseq random.fasta | random.fasta | |
12 | Найти частоты кодонов в данных кодирующих последовательностях | cusp sequence.fasta cusp.fasta | sequence.fasta | cusp.fasta |
14 | Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей) | degapseq gap.fasta degap.fasta | gap.fasta | degap.fasta |
Скрипт генерирует 100 случайных последовательностей заданой первым параметром длины, далее запускает для них алгоритм blastn используя заданный фаста-файл с геномом бактерии (2 параметр) как базу данных, а дальше выдает количество находок с E-value меньше 0.1 в штуках (что равно процентам вероятности, т.к. последовательностей 100)
СкриптВ результате работы скрипта выяснилось, что вероятность распределяется по длинне нелинейно и колеблется от 1 до 15, в среднем около 8. В целом это соответствует указанному E-value, но значительно от него откланяется, вероятно это вызванно слишком мальенькой выборкой.